查看原文
其他

单细胞及空间多组学数据分析——深挖生物学内涵,助力精准医学 | 时空简讯38期

华大时空 华大时空 2023-07-02


时空简讯第38期。


近年来,我们见证了单细胞及空间多组学(尤其是空间转录组)技术的爆炸式增长和进步,随之产生了大量的生物信息数据。如何准确、高效地提取并利用这些信息,是当下生物医学领域面临的重要挑战。为了快速、高效地传播、共享有关单细胞及空间多组学数据的分析方法,华大时空推出生信工具专题简讯。遴选基于单细胞分辨率上的有关差异基因筛选、细胞类型识别、互作网络分析、临床预测等工具/平台、数据/资源库类文献,持续、针对性地进行精要解读,敬请关注。


通过为分析、可视化和解释新数据提供重要工具,计算方法的发展将继续在将单细胞及空间多组学技术的前景转化为现实方面发挥关键作用。在此,遴选了10篇有关单细胞及空间多组学数据分析方法的优质前沿文章,展示了当前在细胞类型识别、差异基因筛选、互作网络分析和数据库资源的部分进展,供了解参考。


综述

Reivew


空间转录组数据细胞组成推断方法的综合比较

Briefings in Bioinformatics [IF: 13.994]

① 描述了10种通过反卷积分析空间转录组数据细胞组成的方法,包括stereoscope、RCTD、SPOTlight、Tangram、DSTG、cell2location、AdRoit、spatialDWLS、DestVI和STdeconvolve的基本原理和特征,并通过6个不同的空间转录组技术产生的数据集,从均方根误差(root mean square error,RMSE)、细胞类型间距离相关性和每种细胞类型与真实情况的差异这三个度量指标表征上述方法的性能。

② 用seqFISH+产生的小鼠嗅球数据进行比较,发现在有scRNA-seq数据作内参或外参的情况下,Adroit、cell2location、 RCTD、DSTG的准确性较高。使用不同的测试基因集进行比较时,发现Tangram、cell2location、RCTD和stereoscope结果的相关性较高。而Tangram、Adroit和SPOTlight运行时间最短。

③ 用人类心脏(ISS,Spatial Transcriptomics)数据进行比较,在有内参时,Adroit、RCTD、 stereoscope、DSTG和Tangram准确性最高;在有外参时,RCTD和stereoscope表现最好。

④ 用小鼠脑的初级躯体感觉皮层(Visium、Slide-seqV2、osmFISH)数据进行比较,发现有完美匹配的内参时,Tangram和DSTG表现最好;有其他内参时,Adroit、cell2location、RCTD和stereoscope表现最好;有外参时,RCTD和stereoscope表现最好。

⑤ RCTD和stereoscope在各种组织中都表现很好,cell2location在基因数足够多时表现也很好,而STdeconvolve是唯一无需参考(reference-free)的方法,具有识别组织结构和细胞混合物的能力,但性能不稳定。(大禹)


空间转录组反卷积方法概述


A comprehensive comparison on cell-type composition inference for spatial transcriptomics data.

2022.06.27, DOI: 10.1093/bib/bbac245

 

综述;空间转录组,反卷积工具,细胞类型;Jiawen Chen,Weifang Liu, Tianyou Luo, Yun Li; University North Carolina;USA.



空间转录组数据分析方法的最新进展

Genome Research [IF: 9.043]

① 总结了空间转录组数据分析方法和管道的最新进展,并讨论了它们如何在不同的技术平台上运行。

② 空间转录组数据分析可以对细胞类型进行识别和定位,表征转录组谱的空间模式,对亚细胞结构进行分析,并且可以研究细胞如何与组织环境通信。

③ 目前已经有许多综合探索性工具,如Giotto、Seurat、Squidpy等,可用于空间数据分析和可视化。

④ 空间转录组技术发展迅速,现在可以对同一细胞同时进行转录组分析和形态学分析,从而为系统研究这两种根本不同的方法之间的关系提供了很好的机会。(张书琪)


空间转录组学分析方法概述


Advances in spatial transcriptomic data analysis.

2021.10, DOI:10.1101/gr.275224.121


综述; 空间转录组,数据分析,生物信息;Ruben Dries, Guo-Cheng Yuan; Boston University School of Medicine, Boston University, Icahn School of Medicine at Mount Sinai; USA.


聚类分析

Cluster Analysis


基于共变邻域鉴定表型相关亚群的单细胞转录组分析方法

Nature Biotechnology [IF:54.908]

① 基于单细胞转录组数据PCA空间的邻域(neighborhood)粒度分析模型,提出了一种无监督的表型共变细胞群体鉴定方法(co-varying neighborhood analysis, CNA)。

② CNA通过量化邻域细胞,克服了单细胞数据由于大量连续邻域存在而带来的粒度模糊问题,同时开拓性地为鉴定结果提供了统计学检验模型。

③ 通过比较测试模拟数据与来自关节炎患者的成纤维细胞、败血症患者的外周血样本等已发表数据集,证明了CNA的有效性和准确性,同时,与传统聚类算法相比,CNA通过鉴定空间邻域集合,更高效地检测到多种表型关连信号,如类风湿关节炎中Notch通路激活基因PRG4FN1的高表达,并找出驱动这些信号的细胞群体。

④ 在作者计算机上,CNA能够在低于1 min的时间(消耗519M内存)完成50万细胞、259个样本单细胞数据的共变群体鉴定,且无需用户反复调整软件参数。(Aiden)


CNA算法设计示意图


Co-varying neighborhood analysis identifies cell populations associated with phenotypes of interest from single-cell transcriptomics.

2021.10.21,DOI:10.1038/s41587-021-01066-4.


研究文章;CNA,聚类分析,scRNA-seq;Yakir A. Reshef,Laurie Rumker,Soumya Raychaudhuri;Brigham and Women’s Hospital,Harvard Medical School,Broad Institute of MIT and Harvard, University of Manchester; USA, UK.



CellDART:通过域自适应推断空间转录组数据的细胞类型

Nucleic Acids Research [IF: 19.160]

① 开发了一种名为CellDART的空间转录组数据细胞类型推断方法,该方法改进了对抗性判别域自适应(adversarial discriminative domain adaptation,ADDA)算法,从scRNA-seq数据中随机选择细胞,构成细胞成分已知的伪点,神经网络模型提取了伪点基因表达的细胞比例,自适应到存在空间转录组数据的不同域,从而进行细胞组成推断。

② CellDART已经被封装为python模块,存放到https://github.com/mexchy1000/CellDART,也可以通过reticulate在R中使用。

③ 使用Visium技术产生的人类的背外侧前额叶皮层(dorsolateral prefrontal cortex,DLPFC)数据集,与现有的6种方法(Scanorama、Cell2location、RCTD、SPOTlight、Seurat和DSTG)进行比较,通过曲线下面积(area under the curve,AUC)评估软件的性能,发现CellDART较Cell2location以外的5种方法具有更高到AUC,比Cell2location快近20倍,综合性能最佳。

④ 分析了3个空间转录组/scRNA-seq配对数据集,包括Visium人和小鼠的DLPFC数据、Slide-seq小鼠海马体数据和Visium的人类正常肺组织数据,证明CellDART可以分析不同空间转录组平台的数据。此外,通过分析人类肺组织样本的空间转录组数据,证明CellDART可以精确定位正常肺组织中细胞空间分布的异质性。(大禹)


CellDART工作流程示意图


CellDART: cell type inference by domain adaptation of single-cell and spatial transcriptomic data.

2022.06.10, DOI: 10.1093/nar/gkac084


研究文章;人,小鼠,脑,肺,细胞类型,CellDART,空间转录组,scRNA-seq;Sungwoo Bae, Kwon Joong Na, Hongyoon Choi, Young Tae Kim;Seoul National University, Seoul National University Hospita, Seoul National University Cancer Research Institute; Republic of Korea.


差异表达分析

Differential Expression Analysis


trendsceek:识别带有空间信息的高可变基因

Nature Methods [IF:26.919]

① 提出了一种基于标记点过程的计算方法:trendsceek,可以在空间组数据和单细胞数据中识别具有显著空间表达趋势的基因(具有空间信息的可变基因)。

trendsceek在空间转录组学数据(小鼠嗅球和乳腺癌切片)和seqFISH数据(海马)中识别出了具有显著空间模式的基因;即使是被投射到低维空间的分离的scRNA-seq数据(t-SNE6),trendsceek也可揭示显著的基因表达梯度和模式。

trendsceek已经作为一个R包实现(https://github.com/edsgard/trendsceek),允许广泛应用于许多类型的空间基因表达数据。(丁晓燕/Lina)


在模拟空间表达数据中验证了trendsceek


Identification of spatial expression trends in single-cell gene expression data.

2018.03.09, DOI: 10.1038/nmeth.4634


研究文章;小鼠,单细胞,空间信息,基因表达,scRNA-seq,trendsceek;Daniel Edsgärd, Rickard Sandberg; Karolinska Institutet, Ludwig Institute for Cancer Research; Sweden.



MERINGUE:在不均匀细胞密度的空间分辨单细胞转录组数据中描述空间基因表达的异质性

Genome Reserach [IF: 9.043]

① 开发了一个基于空间自相关和互相相关分析的计算框架:MERINGUE,可用于识别具有空间异质性表达模式的基因。

② 将MERINGUE应用于各种空间分辨的转录组数据集,包括MERFISH、ST、Slide-seq和ISH数据,其能够以一种独立于细胞密度的方式识别出2D和3D中生物学上相关的空间基因表达模式。

③ 与以往的空间分析方法相比,MERINGUE具有高度的可扩展性和计算效率;其对细胞密度的空间变化具有鲁棒性,能更好地适应组织中常见的不均匀的细胞密度。(张梦淇/Lina)

  

MERINGUE概述


Characterizing spatial gene expression heterogeneity in spatially resolved single-cell transcriptomic data with nonuniform cellular densities.

2021.05.25, DOI: 10.1101/gr.271288.120

 

研究文章;空间转录组,单细胞分辨率,基因表达,空间组织,异质性;Brendan F. Miller, Jean Fan; Johns Hopkins University, Johns Hopkins University, Harvard University; USA.


互作网络分析

Interaction Network Analysis


MISTy:空间转录组细胞互作分析方法

Genome Biology [IF: 17.906]

① 提出了一个灵活的、可扩展的、可解释的机器学习框架MISTy(Multiview Intercellular SpaTial modeling framework),可用于从任何空间组学数据提取关系,从数十到数千个测量标记,而不需要单元格类型注释。

② 将MISTy应用于真实数据之前,在silico数据中为MISTy建立了一个性能基线,并发现MISTy在重建细胞内和细胞间交互网络的任务上取得了较高的性能。

③ 进一步将MIST应用于两个不同的成像质谱细胞术数据集,分别包括46个和720个乳腺癌活检,证实其不仅能够在没有基于先验知识的细胞类型注释的情况下概括文献中的结果,而且还能够生成新的假设。此外,还演示了如何将MISTy的结果与临床特征联系起来。

④ MISTy已作为一个R包实现,并命名为mistyR(https://saezlab.github.io/mistyR/)。(Lina)


MISTy工作原理示意图


Explainable multiview framework for dissecting spatial relationships from highly multiplexed data.

2022.04.14, DOI: 10.1186/s13059-022-02663-5


研究文章;空间转录组,多路复用数据,机器学习,细胞通讯;Jovan Tanevski, Julio Saez‑Rodriguez; Heidelberg University, Heidelberg University Hospital, RWTH Aachen University; Germany.



GCNG:从空间转录组数据推断基因相互作用的图卷积网络方法

Genome Biology [IF: 13.583]

① 提出一种基于图卷积神经网络(graph convolutional neural networks,GCNs)的新方法:GCNG(Graph Convolutional Neural networks for Genes;https://github.com/xiaoyeye/GCNG),它将空间信息编码为一个图,并使用监督训练将其与表达式数据相结合,以用于预测细胞外基因的相互作用。

② 首先将空间转录组数据转换为表示细胞之间关系的图,随后对每对基因的表达数据进行编码,并使用GCNG将图数据与表达数据进行卷积;这种方式可以利用图结构中的一阶关系和高阶关系。

③ 使用两种空间转录组学方法(SeqFISH+、MERFISH)的三个数据集测试GCNG,发现该方法在推断细胞间相互作用中涉及的自分泌和细胞外基因相互作用时,极大地改进了基于相关性的方法。

④ GCNG更新了用于分析空间转录组细胞相互作用的方法,克服了无监督方法的局限性。(刘传军)


GCNG推断细胞外基因互作关系


GCNG: graph convolutional networks for inferring gene interaction from spatial transcriptomics data.

2020.12.10, DOI: 10.1186/s13059-020-02214-w


研究文章;空间转录组,图卷积网络,细胞外基因,相互作用;Ye Yuan, Ziv Bar-Joseph; Carnegie Mellon University; USA.


资源数据库

Databases


RNALocate v2.0:RNA亚细胞定位数据资源分析平台

Nucleic Acids Research [IF: 16.971]

① 更新了可以免费访问的RNA亚细胞定位分析的资源平台RNALocate(http://www.rnalocate.org/or http://www.rna-society.org/rnalocate/),由从文献、数据库和RNA-seq数据集中获得的信息生成,包括213,216个RNA亚细胞定位条目。

② RNALocate v2.0的新功能包括扩展数据源和物种覆盖范围,纳入和整合包含亚细胞定位信息的RNA-seq数据集,RNA信息的添加和重组(RNA亚细胞定位条件和方法描述图、RNA同源性信息、RNA相互作用和ncRNA疾病信息),以及3种额外的预测工具:DM3Loc、iLoc lncRNA和iLocmRNA。

③ RNALocate v2.0版本的物种数量从65增加到104,包括齿根复合体、真核虫、真菌、后虫、红藻、viridiplantae和病毒七个类别;排在前3位的物种是人、小家鼠和酿酒酵母,其他模式物种,如黑腹果蝇、褐家鼠和斑马鱼,也被记录在RNALocate v2.0中。

④ RNALocate v2.0为搜索、浏览和分析RNA亚细胞定位数据提供了一个用户友好的平台。(逄慧)


RNALocate v2.0数据库的概述


RNALocate v2.0: an updated resource for RNA subcellular localization with increased coverage and annotation.

2021.09.22, DOI:10.1093/nar/gkab825

 

研究文章;RNALocate v2.0,资源库,RNA亚细胞,定位分析;Tianyu Cui, Yiying Dou, Puwen Tan, Dong Xu, Hao Lin, Dong Wang; 南方医科大学,中国电子科技大学,University of Missouri; 中国,USA.



SpatialDB:空间解析转录组数据库

Nucleic Acids Research [IF: 11.147]

① 构建了首个用于空间解析转录组技术和数据集的手动管理数据库——SpatialDB(https://www.spatialomics.org/SpatialDB),包含由8种空间分辨转录组技术(其中4种技术生成的数据集具有单细胞分辨率)生成的5个物种的24个空间分辨转录组数据集(305个子数据集)。

② SpatialDB将散点模块与Highcharts框架的热图模块相结合,实现了7种技术生成的空间基因表达谱的可视化。

③ 该数据库实现了空间基因表达谱的比较,可并排比较同一时间由相同或不同技术生成的两个数据集的空间基因表达。

④ 通过SpatialDE和trendsceek两种方法识别并提供了空间变量(spatially variable,SV)基因及其功能富集注释。(衣丽芳)


SpatialDB数据库概况


SpatialDB: a database for spatially resolved transcriptomes.

2019.11.12, DOI: 10.1093/nar/gkz934


研究文章;空间转录组,数据库,可视化,基因表达,注释;Zhen Fan, Runsheng Chen, Xiaowei Chen; 中国科学院生物物理研究所,中国科学院大学;中国



近日,腾讯 AI Lab 联合深圳华大生命科学研究院团队,开发了一种基于自监督学习的空间转录组细胞注释方法Spatial-ID。该方法通过迁移学习从已有的单细胞转录组数据集迁移单细胞表达谱知识,继而通过嵌入空间信息,利用细胞在空间背景下与相邻细胞之间的可能存在的交互关系或共表达模式,提高了细胞类型识别的准确性。(点击查阅详细解读




系列导读


 9篇生信工具文章,让单细胞和空间转录组数据可视化 | 时空简讯25期

 这些顶流单细胞多组学分析工具,值得一试 !| 时空简讯第11期

单细胞数据库TEDD,助力人类疾病和发育生物学遗传研究

发布 | 时空组学数据库STOmicsDB,“一站式”赋能时空组学研究!


推荐阅读


联系我们


对时空组学或单细胞组学整体解决方案感兴趣的老师,可选择以下方式和我们联系,我们将及时为您进行详细的介绍:

1. 在公众号留言;

2. 发送信息至邮箱:

collaboration@stomics.tech。

3. “阅读原文”预约已发表文章作者、各领域内优秀行业专家分享最新研究成果及进展。




让我知道你“在看”

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存